LLM-as-a-Judge

2 статьи

🎯 Афшин и Шервин об эволюции оценки LLM: от человеческой разметки до агентов-симуляторов

Stanford Online · 02.12.25 · 53,1 тыс. просм.

🛠 Анкар Гоял (Braintrust) о том, как правильно оценивать AI-агентов

Greylock · 16.09.25 · 939 просм.